Föreläsning 1

Oskar Gustafsson

Lärare på kursen

  • Oskar Gustafsson - kursansvarig, föreläsare och examinator
  • Ester Lagerlöf - plenara övningar, datorövningar, inlämningsuppgifter och jour
  • Maria Bennis - plenara övningar, datorövningar, inlämningsuppgifter och jour
  • Mina Poshtvar, datorövningar och inlämningsuppgifter

Statistiska institutionen finns på plan 6 i hus 4 på Campus Albano.

Mottagningstider kommer att meddelas på Athena.

Tre viktiga dokument

  • Kursplan
    • Kursinnehåll, lärandemål, juridiskt bindande dokument.
    • Finns i mappen Kursinformation på Athena.
  • Kursbeskrivning
    • Vad som gäller just den här terminen, allmän info, deadlines, bedömningskriterier, examination.
    • Finns i mappen Kursinformation på Athena.
  • Läsanvisningar
    • Vad som tas upp på föreläsningar, övningar, mm.
    • Finns på kurshemsidan.

Kursens hemsida

  • Kursens hemsida är https://statisticssu.github.io/SDA1/
    • Läsanvisningar
    • Föreläsningsslides (PDF-format eller HTML-format)
    • Datorlaborationer
    • Inlämningsuppgifter
    • Länk till schema

Athena (It’s learning)

  • Läroplattformen Athena
    • Kursinformation, inklusive studieplan
    • Meddelanden, inklusive schemaändringar med kort varsel
    • Inlämning av inlämningsuppgifter
    • Chattfunktion (om man snabbt behöver ha kontakt med mig så rekommenderar jag mejl)
    • Vi räknar med att ni har koll på meddelanden på Athena.
    • Tips: It’s learning finns även som mobilapp.

Kursens två delar

  • Del 1 - Dataanalys och regression, 7.5 hp
    • Beskrivande statistik
    • Visualisering
    • Intro till regressionsanalys
    • Prediktion
    • Introduktion till programmeringsspråket R

Kursens två delar

  • Del 2 - Sannolikhetsmodeller och inferens, 7.5 hp
    • Sannolikhetslära
    • Sannolikhetsmodeller för dataanalys
    • Inferens - slutledning från data
    • Beslutsfattande under osäkerhet

Examination

  • Del 1 - Dataanalys och regression, 7.5 hp
    • Inlämningsuppgift, 3 hp, grupparbete, skriftlig rapport.
    • Skriftlig tentamen, 4.5 hp.
  • Del 2 - Sannolikhetsmodeller och inferens, 7.5 hp
    • Inlämningsuppgift, 1.5 hp, grupparbete, skriftlig rapport.
    • Skriftlig tentamen, 6 hp

Kurslitteratur

  • De Veaux, R., Velleman, P. och Bock, D. (2021),
    Stats: Data and Models,
    5:e upplagan,Pearson Global Edition.
  • Fysisk bok på Akademibokhandeln,
    eller online på Adlibris och Bokus.
  • En digital version finns att köpa eller hyra här.

  • Föreläsningsslides. Se under respektive föreläsning på kurswebbsidan.
  • Ytterligare kompletterande material som delas ut under kursens gång.

Inlämningsuppgifterna

  • Genomförs som grupparbeten, 3 studenter i varje grupp.
  • D1 och D5 är obligatoriska för gruppindelning. Ingen annan obligatorisk närvaro på kursen.
  • Två tillfällen (deadlines) finns för varje inlämningsuppgift:
    • Inlämning 1
    • Inlämning 2 (komplettering)
  • Om en inlämningsuppgift blir underkänd efter inlämning 1 går det att komplettera och lämna in igen vid tillfälle 2.
  • Om en inlämningsuppgift blir underkänd efter inlämning 2 ges nästa inlämningstillfälle nästa termin.

Inlämningsuppgifterna

  • Samarbete inom arbetsgrupp är självklart tillåtet.
  • Alla i gruppen ska bidra ungefär lika mycket till rapporten och arbetet som leder upp till rapporten.
  • Samarbete mellan grupper är också tillåtet.
  • Plagiering är inte tillåtet! – automatiskt textmatchningsverktyg används.
  • Om ni använder information som ni har hittar i böcker eller på nätet, ange alltid källan.
  • Använd gärna AI-verktyg för inlärning och för att hitta information, men lämna inte in AI-genererade svar på inlämningsuppgifterna!

Mer om att använda AI

  • Vi betraktar en AI-gerererad text som likvärdig med en text som har skrivits av någon annan person.
  • Att kopiera en AI-genererad text och presentera den som sin egen är otillåtet, på samma sätt som det är otillåtet att kopiera en text ur en bok eller från ett diskussionsforum på internet.
  • Om du formulerar en egen text med utgångspunkt i en AI-genererad text så bör du beskriva hur du har använt AI-verktyget.
  • Du kan generera programmeringskod med ett AI-verktyg för att lära dig. All kod som lämnas in som del i en examination ska du ha skrivit själv.
  • Kom ihåg att svaret från ett AI-verktyg, eller program-koden, inte alltid är korrekt. För att kunna skilja korrekta från felaktiga svar måste du du själv ha tillräckliga kunskaper.

Salstentamen

  • Två tillfällen per delkurs, se kursbeskrivningen och schema.
  • Upplägg - minst 50 poäng av 100 möjliga för godkänt – kan vara räkneuppgifter och kunskapsfrågor.
  • Tillåtna hjälpmedel: Formel- och Tabellsamling kommer finnas i tentasalen.
  • Miniräknare utan lagrade formler tar ni med er – andra hjälpmedel är inte tillåtna.
  • Om särskilda behov finns (egen lokal, extra tid, mm.) kontakta studievägledaren på statistiska institutionen i god tid innan tentan.
  • Glöm inte att anmäla dig till tentan i god tid!

Betyg och betygskriterier

  • Inlämningsuppgifterna: Godkänd, Underkänd.
  • Salstentor: A, B, C, D, E, (Fx), F.
  • F och Fx är underkända betyg som kräver omtentamen.
  • Går ej att komplettera vid Fx.
  • Minimikrav för slutbetyg på hela kursen:
    • godkänt på båda inlämningsuppgifterna
    • minst E på båda tentorna
  • För betygskriterier för respektive prov, se Kursbeskrivningen.
  • Slutbetyg på hela kursen = sammanvägning av betygen på tentorna, se Kursbeskrivningen.

Betyg och betygskriterier

Kursvärdering

  • Enkät skickas ut efter kursen.
  • Snälla, svara! Vi bryr oss verkligen om era åsikter!
  • Vi sammanställer en rapport som läggs upp på Athena.

Aktiviteterna på schemat

  • Föreläsningar (F): Vi går igenom nya begrepp och metoder.
  • Räkneövningar (Ö): Få hjälp att lösa räkneuppgifter.
    • Att lösa uppgifter är ofta nödvändigt för att förstå materialet.
    • Bra förberedelse inför tentan.
  • Datorlaborationer (D): Få hjälp att gå igenom datorlaborationerna.
    • Bra förberedelse inför inlämningsuppgiften.

SDA1 - en modern kurs

  • Fokus på dataanalys i R och datorbaserat arbetssätt.

  • Sambandsanalys tidigt för motivation.

  • Större fokus på prediktion (även för att välja modell).

  • Sannolikhetslära senare, när man insett varför det behövs.

  • Fokus på grundidéer. Färre varianter av metoder.

Ekonomi

  • Riksbankens räntesättning
    • Riksbankens mål: 2% inflation per år.
    • Hur påverkar reporäntan inflationen?
    • Prognoser över framtida inflation.
  • Företagskonkurser
    • Data på alla svenska aktiebolag
    • Målvariabel: konkurs/ej konkurs
    • Orsaksvariabler: vinst, tillgångar, anmärkningar, ålder, makro.
    • Vilka variabler förutsäger en konkurs?
    • Prediktion av ekonomins konkursrisk.

Förseningar i lokaltrafiken

  • Mål1: förutsäga förseningar för stadsbussar.
  • Mål2: säkerheten i prognos: 5min, 5min, 5min
  • Data: förseningar för alla busslinjer under 1 år.
  • Mål: förutsäga förseningen för 12.15-bussen till Tegnérgatan.
  • Förklarande variabler:
    • försening för 12.15-bussen vid hållplatser innan Tegnérgatan.
    • förseningar för tidigare bussar vid hållplats Tegnérgatan.
    • tid på dagen, rusningstid?

Nätverksdata

  • Socialt nätverk: individer och deras relationer.

  • Data: noder (personer) och länkar (relationer).

  • Exempel på nätverk:

    • Sociala nätverk (Twitter, Facebook etc)
    • Kriminella nätverk
      • Noder: personer.
      • Länkar: har gjort brott tillsammans?
    • Kulturella nätverk
      • Noder: Skådespelare.
      • Länkar: Spelat i samma pjäs eller film.

Amerikansk flygplanstrafik

  • Noder: flygplatser. Länkar: flygrutter.
  • Dynamiska nätverk vars länkar förändras över tid.
  • Multipla lager: en graf för varje flygbolag.
  • Data: 80 flygplatser för 4 flygbolag över 10 års tid.
  • Delmål: förutsäga nätverkets utveckling.

Optimala kunskapsprov och intelligens

  • Mäta elevers kunskaper: Nationella prov, PISA etc.

  • Statistisk modell:

\[\text{Provsvar (data) }\Longrightarrow\text{elevens sanna kunskapsnivå (inferens)}\]

  • Designa optimala prov för att mäta kunskapsnivå.

  • Adaptiva prov: vid datorbaserade prov kan man välja optimal fråga för varje student baserat på tidigare svar under provet.

  • Pågående forskningsprojekt vid statistiska institutionen.

  • Psykologi: vad är intelligens, och hur mäter man det? En eller fler-dimensionellt? Statistisk faktoranalys.

Artificiell intelligens och maskininlärning

  • Statistik är grunden för modern AI.

  • Deep Learning Book: Kapitel 3:

    • Sannolikheter, slumpvariabler, sannolikhetsfördelningar, väntevärde, varians, kovarians, korrelation, regression, Bayes sats, Normalfördelning, osv.

Bilder, text och ljud är data

  • Mål: få en maskin att känna igen handskrivna siffor.

  • Data: 60000 handskrivna siffror mellan 0-9.

  • Varje bild har 28 x 28 pixlar med värde mellan 0 och 255:

  • 0 = svart, 128 = mellangrå, 255 = vit

  • Statistisk prognosmodell som ger sannolikhetsfördelningar:

\(\rightarrow\)

  • Djupa neurala nätverk (deep learning) bygger på statistik.

Statistik - a love story

  • Data/information finns numera överallt, “det nya guldet”.

    • Facebook, Google etc lever på datainsamling och analys av data.
  • Statistiker arbetar inom alla fält. Frihet att byta fält.

  • Annat ämne + mycket statistik gör dig unik.

  • Empiriska bevis inom vetenskap avgörs av statistik.

    • Är Covid-vaccin effektiva?

    • Fungerar kognitiv beteendeterapi?

    • Har inkomstskillnaderna i Sverige ökat?

  • Statistik \(\Longrightarrow\) informerad medborgare. Förstå och tolka data. Kritiskt ifrågasätta data. Samla in bättre data.

Credits

Dessa slides baseras på material av Karl Sigfrid och Mattias Villani för kursen Statistik och Dataanalys I från VT 2025.